تبیان، دستیار زندگی
مرحله بعدى تحول موتورهاى جست وجو در اینترنت چیست؟ موتور جست وجوى «آلتاویستا» (AltaVista) نشان داد كه فهرست كردن همه شبكه جهانى اطلاعات امكان پذیر است. موفقیت موتور جست وجوى «گوگل» (Google) از توانایى خارق العاده آن در جدا كر...
بازدید :
زمان تقریبی مطالعه :


بالاخره راهى براى پاسخ گرفتن از اینترنت


مرحله بعدى تحول موتورهاى جست وجو در اینترنت چیست؟ موتور جست وجوى «آلتاویستا» (AltaVista) نشان داد كه فهرست كردن همه شبكه جهانى اطلاعات امكان پذیر است.
موفقیت موتور جست وجوى «گوگل» (Google) از توانایى خارق العاده آن در جدا كردن صفحات شبكه اى (وب پیج ها) مفید از صفحات اشغال بود اما جایزه اصلى مطمئناً به كسى داده خواهد شد كه بتواند از اینترنت براى به دست دادن پاسخى مستقیم به پرسشى مستقیم استفاده كند. و «اریك بیل» پژوهشگر میكروسافت مى گوید اولین كسى خواهد بود كه این كار را انجام خواهد داد.
نخستین رخنه دكتر بریل در این مشكل، سیستمى است كه Ask MSR (از MSR بپرس) نامیده مى شود (MSR مخفف Microsoft Research است). این برنامه از اطلاعات صفحات شبكه براى پاسخ دادن به پرسش هایى كه پاسخشان كلمه یا عبارتى منفرد است استفاده مى كند براى مثال در برابر پرسش «مریلین مونرو كى متولد شد؟» ASK MSR این پرسش را به روش هاى گوناگون پردازش مى كند. مثلاً با شناسایى كردن فعل، و سپس تغییر دادن زمان آن یا حركت دادن آن به جاهاى مختلف جمله (مثلاً «مریلین شده مونرو متولد»، «مریلین مونرو متولد شد» و غیره) سپس عبارات حاصل به یك موتور جست وجو خورانده مى شود و اسنادى كه حاوى زنجیره هاى كلمات مطابقت كننده هستند بازیابى مى شوند. این روش استراتژى بى هدفى به نظر مى رسد، اما عبارت هاى پرت و پلا كلمات مطابقت كننده بسیار كمى تولید مى كنند، بنابراین همانطور كه دكتر بریل اظهار مى كند «غلط بودن بسیار ارزان است.»
سپس توده اسناد جمع آورى شده از اینترنت براى یافتن پاسخ هاى احتمالى مورد بررسى اجمالى قرار مى گیرند و این پاسخ ها بر حسب فراوانى ردیف مى شوند. عملاً به پاسخ صحیح یكى از سه جایگاه اول حدود 75 درصد موارد ظاهر مى شود. این میزان ممكن است خیلى خوب به نظر نرسد، اما هوش انسان فیلترى ثانوى را فراهم مى كند، چرا كه پاسخ هاى اشتباه اغلب واضح هستند. براى مثال اگر شما بپرسید «بیورن بورگ» چند بار در مسابقات تنیس ویمبلدون برنده شد؟، «1980» پاسخى معقول نیست، اما «5» پاسخى منطقى است، در صورت وجود تردید كلیك كردن روى پاسخى، فهرستى از پیوندها (لینك ها) را به صفحاتى فراهم مى آورد كه اطلاعات لازم براى آن پاسخ را در اختیار مى گذارد.
ASK MSR هنوز یك مدل ابتدایى است، گرچه میكروسافت در تلاش است تا آن را بهبود بخشد و ممكن است تحت نام Answer Bot به طور تجارى عرضه شود. در همین حال دكتر بریل به وظیفه اى سخت تر روى آورده است. عنوان یكى از مقالات اخیر او كه با همكارى رادو سوریكات از دانشگاه كالیفرنیاى جنوبى نوشته شده، «فراسوى شبه فاكت ها» Beyond Factoids)) است. این مقاله تلاش هاى او براى ساختن سیستمى را شرح مى دهد كه توانایى فراهم كردن پاسخ هاى 50 كلمه اى را به پرسش هایى مانند اینها داشته باشد: «قواعد شركت در جوایز اسكار كدامند؟» این وظیفه سخت تر از یافتن پاسخى یك كلمه اى است، اما دكتر بریل معتقد است كه این كار با استفاده از چیزى كه مدل «كانال پرسروصدا» (Noisy (Channel Noisy) نامیده مى شود باید امكان پذیر باشد. چنین مدل هایى از هم اكنون در سیستم هاى بررسى املاى كلمات و شناسایى گفتار به كار مى روند. آنها با مدل سازى تغییر شكل یابى بین آنچه منظور كاربر است (در بررسى املا كلمه اى كه قصد دارد تایپ كند) و آنچه او انجام مى دهد (كلمه غلطى كه در واقع تایپ شده) عمل مى كنند. درست همانطور كه خط تلفن صداى شخص را در انتهاى دیگر خط تغییر مى دهد، این فرایند را مى توان به صورت «كانال پرسروصدایى» در نظر گرفت كه قصد كاربر را به صورت چیزى نسبتاً متفاوت تغییر شكل مى دهد.
با تجزیه و تحلیل كردن بسیارى از جفت هاى صحیح و با املاى نادرست با استفاده از فنون آمارى پیش بینى كردن اینكه چنین تغییر شكل هایى در موارد عمومى چگونه عمل مى كنند امكان پذیر است. آنگاه مى توان سیستمى را طراحى كرد كه در جهت عكس این فرایند عمل كند.به عبارت دیگر با دادن یك كلمه با املاى غلط، بتواند حدس بزند كه محتمل ترین كلمه اى كه این كلمه املاى غلط آن است چیست.
سیستم پرسش _ پاسخ دهى دكتر بریل كارى شبیه به همین انجام مى دهد. بسیارى از جفت هاى پرسش _ و _ پاسخ بر روى اینترنت، به صورت صفحات «سئوالات اغلب مورد پرسش» (FAQ) مربوط به موضوعات مختلف وجود دارند. دكتر بریل به سیستمش استفاده از یك میلیون از چنین جفت هایى را آموزش داد تا مدلى را خلق كند كه با داده شدن یك پرسش بتواند ساختارهاى گوناگونى را كه پاسخ مى تواند به خود بگیرد مورد بررسى قرار دهد. سپس این ساختارها براى تولید عبارات پرسش و اسناد مطابقت كننده اى بر روى اینترنت براى پیدا كردن چیزهایى كه شبیه پاسخ باشند بررسى مى شوند.
این مدل ابتدایى فعلى پاسخ هاى متناسب را در حدود 40 درصد موارد فراهم مى كند. خیلى عالى نیست، اما خیلى بد هم نیست، و با رشد اینترنت باید انتظار بهبود آن را داشت. این روش سریع _ و _ پست (quick _and _dirty)، به جاى تكیه بر رویكرد سنتى «هوش مصنوعى» یعنى تقطیع كردن جملات و تلاش براى پردازش معناى واقعى پرسش، بر خود هوش جمعى و همواره در حال رشد شبكه تكیه مى كند.


برگرفته از سایت sharghnewspaper